客户还款可能性预测 | 您所在的位置:网站首页 › loc app › 客户还款可能性预测 |
目的:根据用户的申请表来判别用户是否会按时还款。 1. 导入数据 import numpy as np import pandas as pd from sklearn.preprocessing import LabelEncoder import os import warnings warnings.filterwarnings('ignore') import matplotlib.pyplot as plt import seaborn as sns from matplotlib.font_manager import FontProperties plt.style.use('ggplot') plt.rcParams['font.sans-serif'] = ['Arial Unicode MS'] # 用来正常显示中文标签 plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号 app_train = pd.read_csv('application_train.csv') app_train.head() # 查看数据量 app_train.shape 2. 数据展示 2.1 缺失值展示 def missing_value_table(df): #计算所有的缺失值 mis_val = df.isnull().sum() # 缺失值的百分比 mis_val_percent = 100*df.isnull().sum()/len(df) #合并 mis_val_table = pd.concat([mis_val,mis_val_percent],axis=1) mis_val_rename = mis_val_table.rename(columns = {0:'缺失的数量',1:'缺失百分比'}) #剔除完整的并排序 mis_val_rename = mis_val_rename[mis_val_rename.iloc[:,1]!=0].sort_values('缺失百分比',ascending=False) return mis_val_rename missing_value_table(app_train)[:10] 2.2 object类型处理原则:选择所有的object类型,当特征值>2 用独热编码;否则用label encoder # 查看数据的类型 app_train.dtypes.value_counts() le = LabelEncoder() for col in app_train: if app_train[col].dtype == 'object': if len(list(app_train[col].unique())) |
CopyRight 2018-2019 实验室设备网 版权所有 |